Model Selection

Compute-Optimal Training

# Compute-Optimal Training

Cerebras GPT 111M

A 111M parameter model in the Cerebras-GPT series, adopting GPT-3 style architecture, trained on The Pile dataset, achieving compute-optimal performance following Chinchilla scaling laws.

Large Language Model

Transformers English

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase